HKCLR研究成果登上Science Robotics

2026-04-30

香港物流機械人研究中心（HKCLR）和香港中文大學工程學院團隊研發具有空間智能的視覺語言大模型技術，相關成果發表於國際期刊《科學 – 機器人》（Science Robotics）。這一成果不僅體現了本地科研的國際影響力，也彰顯了HKCLR在連接學術與產業、推動技術落地及培育創新人才方面的持續投入。

中大研發空間智能視覺語言大模型技術
顯著提升AI機械人完成複雜任務的能力

香港中文大學（中大）工程學院團隊最近成功研發具空間智能的視覺語言大模型（Vision-Language Models，VLM）技術，讓機械人能像人類一樣理解三維空間資訊，並具備可擴展的視觸融合[1]能力，能自主完成涉及各類型物件的複雜長序列操作任務，進一步提升人工智能（AI）的分析能力。研究成果已於國際知名期刊《Science Robotics》上刊登。

現時的VLM雖然能讓機械人準確理解人類的語言指令，但它們對物體之間的三維空間關係缺乏深入認知，難以準確規劃長序列的操作任務。為增強VLM的空間理解能力，中大團隊提出名為「檢索增強操作」（Retrieval-Augmented Manipulation，RAM）的新方法，使機械人在規劃操作任務過程中，能同時回答「每一步該做什麼」及「在三維空間中怎樣做才可行」兩個關鍵問題。

團隊為機械人建構了一個結構化的三維物件知識庫，記錄日常生活常見物件的三維幾何形狀、擺放方式及可抓取部位。VLM在生成操作計劃時，可即時從知識庫檢索物體的幾何與操作紀錄，評估操作的可行性，以判斷實際可行的操作序列，並將抽象的指令轉化成準確的空間描述，從而賦予AI機械人執行複雜任務的能力。

是次研究將視覺驅動的空間智能與VLM的複雜操作任務規劃能力作深度融合，通過建構結構化的三維物體知識庫，讓VLM在規劃複雜操作時能夠即時檢索物體的結構與操作經驗知識。這種方式有效突破大模型在語言理解及推理能力方面的局限，並將AI拓展至複雜的三維物理操作場景。

負責研究的中大計算機科學與工程學系副教授竇琪教授表示：「賦予機械人空間智能是提升機械人執行複雜操作能力的關鍵，視覺感知是實現空間智能的重要環節，是次研究在融合空間理解與大模型的推理方面實現了重大突破。」

竇教授續指，機械人空間智能技術具有廣泛的通用性和可擴展性，在目前涵蓋的31個不同物體的14項空間感知操作任務中，RAM可讓機械人精確執行空間語言指令、推理三維空間關係，以及根據場景物理條件作出自適應操作。新技術更可搭配現時市面通用的VLM使用，並可應用於通用的人形機械人平台，完成精細化且複雜的操作任務。

此外，中大新研發的系統更具備視觸融合的可擴展性，兼容觸覺反饋以增強機械人的自適應操作能力。中大卓敏機械與自動化工程學教授兼香港物流機械人研究中心（HKCLR）總監劉雲輝教授表示：「研究展示了AI技術在提升機械人操作能力的巨大潛力，機械人在工業和家庭等不同場景具廣泛的應用前景，將有助人類進一步改善生活。」

這項研究在InnoHK HKCLR的支持下完成。HKCLR由中大創立，研究團隊由中大和加州大學伯克萊分校的教授組成，並獲香港特別行政區政府創新科技署InnoHK創新香港研發平台資助。HKCLR致力推動機械人在智能感知、智能交互、智能操控和智能移動等方面的發展，與香港、大灣區及中國內地的學術和業界夥伴緊密合作，促進人工智能及機械人技術的轉化研究。

具空間智能的視覺語言大模型之示意圖

新技術具備廣泛的通用性與可擴展性，可精確執行空間指令及進行自適應操作（左一、左三）；亦可用作部署通用人形機械人平台完成精細化任務（左二）；更可結合觸覺反饋，實現自適應視觸融合的抓取操作能力（右一）。

內容轉載自香港中文大學傳訊及公共關系處。論文全文，請參閱﹕https://www.science.org/doi/10.1126/scirobotics.aea2092